關聯分析的嘗試/貘的資料探勘30講

DAY 6

資料探勘的開發, 經驗與未來系列第 6 篇

鐵人賽資料探勘

食夢黑貘

2010-10-17 22:22:13

4502 瀏覽

分享至

在繼續說成功的經驗之前, 先說失敗的經驗好了, 我有兩次有機會嘗試 Relation Analysis, 但最後並沒有真的實作出來..

如同前面所說的, 只是把演算法實作出來並不困難, 但因為量的基本要求才能達到實用的前提, 這才是最大的挑戰.
有些人知道在 1994 年時, 開發了個人版的一些相關應用並推廣, 而當時最大的問題就是: 在那麼多的個人版中, 到底那個版才是我們該看的呢? 因此寫了一串 "開發自訂看版列表的可行性" 後, 也寫出了自定看板摘要與看版類別的操作邏輯, 這也是現在大家在操作 BBS 看到的介面.

但對於這個部份總是覺得還是不夠, 總覺得應該發展出一個更好更聰明的演算法, 不只是從個人的設定以及群組組長的建議外, 還有一種可以個人化的建議, 而當時想到的就是關聯分析.

因為 BBS 是可以記錄每一個人看版的記錄, 而從每一個人的讀版的記錄, 就可以視為他讀取的取向與喜好, 進而從關聯分析進一步去做 Cluster Analysis (群落分析), 而這種眾人的群落分析就是另一種自動化的群組, 說不定以系統或個人去定義的群組會更有價值.

但那時是 1995 年, 當時的 SCSI 硬碟還是在 5000 轉及 20 G ~ 40 G 的年代, 說要記錄完整是相當困難的, 更不要說那時的 CPU 時脈還只是 500M, 硬體的效率整體而言跟現在比說不定是有百倍以上, 所以很快就放棄這計劃了....

在 2001 年時, 我又有一次機會嘗試, 那是在一家叫 "網研" 的公司, 但說網研應該只有少數人知道是那一家, 但說到其作品 "魅力站" 大家就知道當時曾是最大的電子報發報網站, 因此也是有相當多的報刊與訂閱記錄, 所以跟個人版 BBS 一樣, 是很合適作關聯分析, 且當時的電腦技術已經成熟, 所以我當時也想再來試一次.

事實上當時我比較熟的是 C 與 File Base, 而這種資料型態, 說要用矩陣來記算這種 "趨近於零矩陣" 計算是相當浪費空間與計算能力的, 所以我那時才發現, 書上說是簡單的關聯分析, 真的是無法實用阿, 真正實務的演算法絕不是書上講的那些, 這些只能產生論文, 無法架構出系統.

因此再加上我的能力那時還不是很夠, 說真的以現在想起來要完成還須要很大的挑戰, 但我當時就確定我還要再努力, 最後在 2004 年終於在另一間公司做出來了.